गोपनीयता जतन, विकेंद्रित गहन शिक्षणासाठी PySyft च्या प्रास्ताविक प्रशिक्षणात आपले स्वागत आहे. नोटबुकची ही मालिका एका अधिकाराखाली केंद्रीकृत न करता गुप्त / खाजगी डेटा / मॉडेल्सवर सखोल शिक्षण घेण्यासाठी आवश्यक असलेली नवीन साधने आणि तंत्रे जाणून घेण्यासाठी आपल्याला चरण-दर-चरण मार्गदर्शक आहेत.
व्याप्ती: लक्षात ठेवा आम्ही केवळ डेटाचे विकेंद्रीकरण(decentralized) / एन्क्रिप्ट(encrypt) कसे करावे याबद्दल बोलत आहोत असे नाही तर डेटा संग्रहित आणि क्वेरी(query) केलेल्या डेटाबेस-समवेत डेटाच्या भोवतालच्या परिसंस्थेचे विकेंद्रीकरण करण्यात आणि डेटामधून माहिती काढण्यासाठी वापरल्या जाणार्या न्यूरल मॉडेल्सच्या(neural network)संधरबात PySyft चा कसा उपयोग करता येईल यावर आम्ही चर्चा करीत आहोत. जसजसे PySyft मध्ये नवीन extension तयार होत जातील, तसतसे या नोटबुकमध्ये नवीन कार्यक्षमतेचे स्पष्टीकरण देण्यासाठी नवीन ट्यूटोरियल पाठवले जाईल.
लेखक:
अनुवादक:
1) स्पर्धात्मक कारकीर्दीचा फायदा - मागील 20 वर्षांपासून, डिजिटल क्रांतीमुळे डेटा जास्त प्रमाणात उपलब्ध झाला आहे कारण एनालॉग प्रक्रिया डिजिटल झाल्या आहेत. तथापि, GDPR नवीन नियमनानुसार उद्योजकांवर कसे वापरावे - आणि महत्त्वाचे म्हणजे ते कसे विश्लेषित करतात - वैयक्तिक माहिती यावर कमी स्वातंत्र्य मिळवण्याचा दबाव असतो. Bottom Line: डेटा शास्त्रज्ञांना जुन्या(old school) साधनांसह जास्तीत जास्त डेटामध्ये प्रवेश मिळणार नाही, परंतु खाजगी डीप लर्निंगची साधने शिकून आपण या वक्रतेपेक्षा पुढे असू शकता आणि आपल्या कारकीर्दीत स्पर्धात्मक फायदा घेऊ शकता.
2) उद्योजकीय संधी - समाजात डिप्प लर्निंग सोडवू शकणार्या अनेक समस्या आहेत, परंतु बर्याच महत्त्वाच्या गोष्टींचा शोध लावला गेला नाही कारण त्यासाठी लोकांबद्दल आश्चर्यकारकपणे संवेदनशील माहिती मिळवणे आवश्यक आहे (तुम्ही डीप लर्निंगचा वापर मानसिक किंवा नातेसंबंध समस्या सोढवण्यासाठी लोकांना मदत करुशकतात!). अशाप्रकारे, खाजगी डीप लर्निंग शिकणे आपल्यासाठी नवीन स्टार्टअप संधींचे संपूर्ण विस्तार उघडते जे या टूलसेटशिवाय इतरांना पूर्वी उपलब्ध नव्हते.
3) सोशल गुड - डीप लर्निंगचा उपयोग खर्या जगातील विविध समस्या सोडविण्यासाठी केला जाऊ शकतो, परंतु वैयक्तिक माहितीवर डीप लर्निंग म्हणजे लोकांसंबंधी, लोकांसाठी डीप लर्निंग. आपल्या मालकीच्या नसलेल्या डेटावर डीप लर्निंग कसे करावे हे शिकणे हे करिअर किंवा उद्योजकीय संधीपेक्षा अधिक प्रतिनिधित्व करते, लोकांच्या जीवनातील काही सर्वात वैयक्तिक आणि महत्त्वपूर्ण समस्या सोडविण्यास मदत करण्याची संधी - आणि तेही प्रमाणात करणे.
... ठीक आहे ... चला सुरुवात करूया!
सुरू करण्यासाठी, आपल्याला खात्री करुन घ्यावी लागेल की आपल्याकडे योग्य गोष्टी स्थापित केल्या आहेत. असे करण्यासाठी, PySyft च्या readme जा आणि सेटअपच्या सूचनांचे अनुसरण करा. बहुतेक लोकांसाठी TLDR आहे.
जर यापैकी कोणताही भाग आपल्यासाठी कार्य करत नसेल (किंवा कोणत्याही चाचण्या अयशस्वी झाल्या असतील तर) - प्रथम इन्स्टॉलेशन मदतीसाठी README तपासा आणि नंतर एक GitHub Issue उघडा किंवा आमच्या स्लॅकमध्ये #beginner चॅनेलला पिंग करा! slack.openmined.org
In [1]:
# गोष्टी कार्यरत आहेत की नाही हे पाहण्यासाठी हा सेल चालवा
import sys
import torch
from torch.nn import Parameter
import torch.nn as nn
import torch.nn.functional as F
import syft as sy
hook = sy.TorchHook(torch)
torch.tensor([1,2,3,4,5])
Out[1]:
जर या सेलची अंमलबजावणी झाली तर आपण शर्यतींसाठी निघाला आहात! चला हे करूया!
तर - आपण याच्यात पहिला प्रश्न विचारू शकता तो असा आहे - आपल्याकडे प्रवेश नसलेल्या डेटावर,आपण आपले मॉडेल कसे प्रशिक्षीत करू सकतो ?
पण, उत्तर आश्चर्यकारकपणे सोपे आहे. जर आपण PyTorch मध्ये काम करण्याची सवय लावत असाल, तर आपण torch.Tensor सारख्या वस्तूंच्या मदतीने काम करण्याची सवय लावली आहे!
In [2]:
x = torch.tensor([1,2,3,4,5])
y = x + x
print(y)
अर्थात हे सुपर फॅन्सी (आणि शक्तिशाली!) टेन्सर वापरणे महत्वाचे आहे, परंतु आपल्याकडे आपल्या स्थानिक मशीनवर डेटा असणे आवश्यक आहे. येथून आपला प्रवास सुरू होतो.
सामान्यत: आपण डेटा ठेवणाऱ्या मशीनवर डेटा सायन्स / डीप लर्निंगचे प्रदर्शन करत असे, आता आपल्याला दुसर्या मशीनवर या प्रकारचे गणित करायचे आहे. विशेषतः, आपण यापुढे डेटा आपल्या स्थानिक मशीनवर आहे असे समजू शकत नाही.
अशाप्रकारे, Torch Tensor वापरण्याऐवजी, आपण आता पॉईंटर्ससह टेन्सरवर काम करणार आहोत. मला काय म्हणायचे आहे ते मी तुम्हाला दाखवतो. प्रथम, "सोंग"(pretend) मशीन बनवू जे "सोंग"(pretend) व्यक्तीच्या मालकीचे आहे - आपण त्याला बॉब(Bob) म्हणू.
In [3]:
bob = sy.VirtualWorker(hook, id="bob")
समजा बॉबचे मशीन दुसर्या ग्रहावर आहे - कदाचित मंगळावर! पण, याक्षणी मशीन रिक्त आहे. चला काही डेटा तयार करू जेणेकरुन आपण ते बॉबला पाठवू आणि पॉईंटर्सबद्दल (Pointers) शिकू!
In [4]:
x = torch.tensor([1,2,3,4,5])
y = torch.tensor([1,1,1,1,1])
आणि आता - चला आपले टेन्सर बॉबला(Bob) पाठवू !!
In [5]:
x_ptr = x.send(bob)
y_ptr = y.send(bob)
In [6]:
x_ptr
Out[6]:
BOOM! आता बॉबकडे(Bob) दोन Tensor आहेत! माझ्यावर विश्वास नाही? हे स्वत: पहा!
In [7]:
bob._objects
Out[7]:
In [8]:
z = x_ptr + x_ptr
In [9]:
z
Out[9]:
In [10]:
bob._objects
Out[10]:
आता थोड लक्षात घ्या. जेव्हा आपण x.send(bob)
म्हटले तेव्हा ते नवीन ऑब्जेक्ट परत केले ज्याला आपण x_ptr
म्हटले. एका टेन्सरसाठी हा आमचा पहिला पॉईंटर आहे. Pointers to tensors प्रत्यक्षात स्वत: चा डेटा ठेवत नाहीत. त्याऐवजी, ते फक्त मशीनवर संग्रहित एका Tensor(डेटासह) बद्दल मेटाडेटा असतात. या टेन्सरचा हेतू आम्हाला अंतर्ज्ञानी एपीआय प्रदान करणे आहे जे या टेन्सरद्वारे इतर मशीनला कार्ये मोजण्यास सांगते. चला Pointer असलेल्या मेटाडेटावर एक नजर टाकू.
In [11]:
x_ptr
Out[11]:
तो मेटाडेटा पहा!
Pointers शी संबंधित दोन मुख्य वैषिष्टे आहेत:
x_ptr.location : bob
, स्थान, (Pointer) ज्या ठिकाणी निर्देशित करीत आहे त्या स्थानाचा संदर्भ. x_ptr.id_at_location : <random integer>
, ज्या ठिकाणी Tensor संग्रहित असेल तो आयडी.ह्या स्वरूपात मुद्रित आहेत <id_at_location>@<location>
इतरही सामान्य गुणधर्म आहेत:
x_ptr.id : <random integer>
, आपल्या पॉईंटर Tensor चा आयडी, यादृच्छिकपणे(Randomly Allocated) त्याचा वाटप करण्यात आला. x_ptr.owner : "me"
, पॉईंटर (Pointer) टेन्सरचा मालक असलेला वर्कर, येथे तो स्थानिक वर्कर आहे, ज्याचे नाव "me" आहे.
In [12]:
x_ptr.location
Out[12]:
In [13]:
bob
Out[13]:
In [14]:
bob == x_ptr.location
Out[14]:
In [15]:
x_ptr.id_at_location
Out[15]:
In [16]:
x_ptr.owner
Out[16]:
आपण आश्चर्यचकित होऊ शकता की (Pointer) चा मालक असलेला स्थानिक कर्मचारीसुद्धा एक VirtualWorker आहे, जरी आम्ही तो तयार केलेला नाही. मजेदार तथ्य, जसे आपल्याकडे (Bob)साठी VirtualWorker ऑब्जेक्ट होता, तसे आपल्याकडे देखील (डीफॉल्टनुसार) नेहमीच असतो. जेव्हा आम्ही hook = sy.TorchHook() म्हणतो तेव्हा हा कार्यकर्ता आपोआप तयार होतो आणि म्हणूनच आपल्याला सहसा ते तयार करण्याची आवश्यकता नसते.
In [17]:
me = sy.local_worker
me
Out[17]:
In [18]:
me == x_ptr.owner
Out[18]:
आणि शेवटी, ज्याप्रमाणे आपण Tensor वर .send() कॉल करू शकतो, तसे Tensor परत मिळवण्यासाठी आपण पॉईंटर (Pointer) वर .get () कॉल करू शकतो !!!
In [19]:
x_ptr
Out[19]:
In [20]:
x_ptr.get()
Out[20]:
In [21]:
y_ptr
Out[21]:
In [22]:
y_ptr.get()
Out[22]:
In [23]:
z.get()
Out[23]:
In [24]:
bob._objects
Out[24]:
आणि जसे आपण पाहू शकता ... बॉब(Bob)कडे यापुढे टेन्सर नाही !!! ते परत आपल्या मशीनकडे गेले आहेत!
तर, बॉब(Bob)कडून टेन्सर(Tensor) पाठविणे आणि प्राप्त करणे चांगले आहे, परंतु हे डिप्प लर्निंगच नाही! आपल्याला रिमोट टेन्सर(Remote Tensor)वर Tensor operations करण्यास सक्षम व्हायचे आहे. सुदैवाने, Tensor पॉईंटर्स(Pointers) हे बरेच सोपे करतात! आपण सामान्य Tensor सारखेच पॉईंटर्स(Pointers) वापरू शकता!
In [25]:
x = torch.tensor([1,2,3,4,5]).send(bob)
y = torch.tensor([1,1,1,1,1]).send(bob)
In [26]:
z = x + y
In [27]:
z
Out[27]:
आणि पहा (And voilà!)
पडद्यामागे काहीतरी खूप शक्तिशाली घडले. स्थानिकरित्या x आणि y चे संगणन करण्याऐवजी, आज्ञा क्रमबद्ध केली गेली आणि बॉब(Bob)ला पाठविली गेली, त्याने गणना केली, एक टेन्सर(Tensor) z तयार केला, आणि नंतर पॉईंटरला z पाठवून परत आपल्याकडे परत केले!
आपण पॉईंटरवर(Pointer) .get () कॉल केल्यास आपल्याला आपल्या मशीनवर पुन्हा निकाल मिळेल!
In [28]:
z.get()
Out[28]:
In [29]:
x
Out[29]:
In [30]:
y
Out[30]:
In [31]:
z = torch.add(x,y)
z
Out[31]:
In [32]:
z.get()
Out[32]:
In [33]:
x = torch.tensor([1,2,3,4,5.], requires_grad=True).send(bob)
y = torch.tensor([1,1,1,1,1.], requires_grad=True).send(bob)
In [34]:
z = (x + y).sum()
In [35]:
z.backward()
Out[35]:
In [36]:
x = x.get()
In [37]:
x
Out[37]:
In [38]:
x.grad
Out[38]:
म्हणूनच आपण पाहू शकता, एपीआय(API) खरोखरच लवचिक आहे आणि आपण साधारणपणे रिमोट डेटावरील(Remote Data) Torch मध्ये करता असे कोणतेही ऑपरेशन करण्यास सक्षम आहे. हे आमच्या अधिक प्रगत गोपनीयता संरक्षित प्रोटोकॉल(advanced privacy preserving protocols) जसे की फेडरेटेड लर्निंग(Federated Learning), सिक्युर मल्टी-पार्टी कंप्यूटेशन(Secure Multi-Party Computation) आणि डिफरेंशियल प्रायव्हसी(Differential Privacy) यासाठी आधारभूत कार्य करते!
In [ ]:
हे नोटबुक ट्यूटोरियल पूर्ण केल्याबद्दल अभिनंदन! आपण याचा आनंद घेत असल्यास आणि एआय(AI) आणि एआय सप्लाय चेन (डेटा) च्या विकेंद्रित(Decentralized) मालकीच्या गोपनीयतेच्या संरक्षणाच्या दिशेने चळवळीत सामील होऊ इच्छित असाल तर आपण हे खालील प्रकारे करू शकता!
आमच्या समुदायाला मदत करण्याचा सर्वात सोपा मार्ग म्हणजे फक्त गिटहब(GitHub) रेपो(Repo) तारांकित(Star) करणे! हे आम्ही तयार करीत असलेल्या छान साधनांविषयी जागरूकता वाढविण्यास मदत करते.
नवीनतम प्रगतीवर अद्ययावत राहण्याचा उत्तम मार्ग म्हणजे आमच्या समुदायामध्ये सामील होणे! आपण http://slack.openmined.org येथे फॉर्म भरुन तसे करू शकता.
आमच्या समुदायामध्ये योगदानाचा उत्तम मार्ग म्हणजे कोड योगदानकर्ता बनणे! कोणत्याही वेळी आपण (PySyft GitHub Issues Page) वर जाऊ शकता आणि "Project" साठी फिल्टर करू शकता. हे आपण कोणत्या प्रकल्पांमध्ये सामील होऊ शकता याबद्दल विहंगावलोकन देणारी सर्व उच्च स्तरीय तिकिटे दर्शवेल! आपण एखाद्या प्रकल्पात सामील होऊ इच्छित नसल्यास, परंतु आपण थोडं कोडिंग करू इच्छित असाल तर आपण "good first issues" म्हणून चिन्हांकित गिटहब(GitHub) अंक शोधून आणखी "one off" मिनी-प्रकल्प(mini project) शोधू शकता.
आपल्याकडे आमच्या कोडेबेसमध्ये योगदान देण्यास वेळ नसल्यास, परंतु तरीही आपल्याला समर्थन द्यावयाचे असल्यास आपण आमच्या मुक्त संग्रहात बॅकर देखील होऊ शकता. सर्व देणगी आमच्या वेब होस्टिंग आणि हॅकॅथॉन आणि मेटअप्स सारख्या इतर सामुदायिक खर्चाकडे जातात!
In [ ]: